Ontologically Grounded Multi-sense Representation Learning for Semantic Vector Space Models

Introduction

In this paper thye propose two novel and general approaches for generating sense-specific word embeddings that are grounded in an ontology.

但是通用的词向量只为一个词分配一个词向量,无法解决解决一词多义的问题。

虽然Yu and Dredze (2014), Faruqui (2014)的方法都能利用知识库训练出更好的词向量,但是没有解决一词多义的问题。大多数解决一词多义的方法都关注如果使用上下文来找出词语的真正意思。而本文则整合进了ontology

这篇论文将提出两种方法将ontologydistributional sources of information起来。

  • 让已经得到证明的方法能够在ontology的基础上产生词语意思的向量表示。属于post-process的方法。
  • 适用于使用最大化likelihood的学习词向量的方法。

#统一化的符号、分布式语义#
$W={w_1,..., w_n}$是词语的集合,$W_s={s_{ij}|\forall w_i \in W, i \leq j \eq k_i}$是词义的集合,$k_i$$w_i$的词义数量。

$\Omega = (T_{\Omega}, E_{\Omega})$, $T_{\Omega}$是词的意思的集合,$E_{\Omega}$是图的边。

Retrofitting Vecotors to an Ontology

第一个技术假设我们已经有一个原始的词向量了$\hat{U}$。希望得到词义的词向量$V={v_{ij}|\forall s_{ij} \in W_s}$。词的词向量和它的词义词向量是连在一起的。

从优化的角度出发,选择使用向量之间的欧几里德距离而不是余弦相似度。


$C(v) = argmin_V \sum_{i-ij} \alpha ||\hat{u}_i - v_{ij}||^2 + \sum_{ij-i\prime j\prime} \beta_r ||v_{ij} - v_{i\primej\prime}||^2$

表示的是词义的词向量的相似度的约束和具有关系的词义之间的相似度的约束。

Adapting Predictive Models with Latent Variables and Structured Regularizers

第二个技术则是在已存在的概率模型中引入隐变量来表示词义。


$C(\theta) = argmax_{\theta} \sum_{(w_i, c_i) \in D} log(\sum_{s_{ij}}p(w_i, c_i, s_{ij};\theta)) + log p_{\Omega}(\theta)$

第一项是在原始的概率模型上引入了$s_{ij}$这个隐变量。第二项则是基于ontology的一个正则项。

分享到